Volgens Silicon Valley is de AI-agent de toekomst. In theorie is een AI-agent een vorm van AI die problemen kan oplossen, taken kan uitvoeren en slimmer wordt door te leren van zijn omgeving.

Agents zijn te vergelijken met virtuele assistenten die kunnen ondersteunen met meerdere taken. Mensen gebruiken ze al om data te verzamelen, rapporten samen te vatten en zelfs met het maken van beslissingen.

Maar agents zijn nog niet perfect. Ze maken veelvuldig fouten en zijn erg gevoelig voor hallucinaties (een fenomeen waarbij AI foutieve informatie als waarheid aandraagt), problemen die groter worden naarmate AI-agents meer worden ingezet.

Bedrijven maken AI-agents nu vooral voor het automatiseren van taken die uit meerdere stappen bestaan. Een voorbeeld hiervan is Regie AI dat ‘autopilot sales agents’ aanbiedt die automatisch potentiële klanten vinden, gepersonaliseerde e-mails opstelllen en contact onderhouden met klanten.

Ook op het gebied van techniek zijn AI-agents te vinden: Cognition AI maakt een agent genaamd Devin die volgens het bedrijf complexe taken kan uitvoeren. Zakelijk dienstverlener PwC introduceerde onlangs 'agent OS', een platform dat het mogelijk maakt voor agents om met elkaar te communiceren zodat ze samen taken kunnen uitvoeren.

Techjournalist en ondernemer Alexander Klöpping liet bij de talkshow Eva zien hoe een team van verschillende AI's in overleg ging om een marketingcampagne voor de verkoop van een boek te lanceren. Binnen 10 minuten lag er een concept.

Hoe meer stappen een AI-agent moet nemen, hoe groter de kans op fouten

Het probleem met AI-agents op dit moment is hoe meer stappen de AI moet nemen, hoe groter de kans wordt dat het fouten maakt.

Volgens Patronus AI, een startup die de implementatie van AI-bedrijven evalueert en optimaliseert, zijn er al AI-agents die meer dan honderd stappen uitvoeren. "Een fout in een stap kan de hele taak laten ontsporen. Hoe meer stappen er nodig zijn, hoe groter de kans dat er gaandeweg iets fout gaat", schreef het bedrijf op zijn blog.

De startup bouwde een statistisch model waaruit bleek dat een AI-agent die per stap slechts 1 procent foutmarge heeft, na honderd stappen een foutmarge van 63 procent heeft opgebouwd. Dit betekent dat de uitkomst van deze AI-agent voor bijna tweederde onbetrouwbaar is.

De berekeningen van Patronus AI zijn erg conservatief, stelt Quintin Au van ScaleAI. Volgens hem liggen de foutmarges in de praktijk vele malen hoger.

"Als een AI op dit moment een actie uitvoert, is er ruwweg een kans van 20 procent dat hij het fout doet. Dit is hoe large language models (LLM's) werken, we kunnen geen 100 procent accuraatheid verwachten", schreef hij in een post op LinkedIn. "Als een agent stappen moet nemen om een taak af te ronden, is er slechts 32 procent kans dat hij elke stap correct uitvoert."

Foutmarge is als samengestelde rente

CEO Demis Hassabis van Google DeepMind vergeleek de foutmarge van AI met samengestelde rente, ofwel rente-op-rente, waarbij een bedrag groter wordt omdat de rente wordt berekend over de inleg of schuld plus de rente.

Als een AI-agent zich door 5.000 stappen werkt om een taak af te ronden in de echte wereld, dan is het uiteindelijk onmogelijk om in te schatten of de uitkomst correct is. Daarmee lopen bedrijven die AI-agents inzetten het risico dat klanten afhaken, omdat ze geen betrouwbare resultaten krijgen.

Gelukkig is er ook goed nieuws. Er zijn guardrails ofwel vangrails die de AI-agents van misstappen moeten beschermen. Ze kunnen fouten en herkennen en verwijderen en risicovolle prompts monitoren en uitfilteren, volgens consultant McKinsey.

Deze begeleidende en beperkende sturing kan ervoor zorgen dat AI's minder fouten maken, zich netter gedragen en bepaalde dingen helemaal vermijden. Kleine verbeteringen "kunnen leiden tot enorme stappen in het verlagen van de foutmarges", aldus Patronus AI dat zelf guardrails levert.

Volgens CEO Anand Kannappan van Patronus AI kunnen guardrails iets simpels zijn als het uitvoeren van extra controles waardoor de AI-agents geen fouten maken als ze hun taken uitvoeren. "Ze kunnen "een AI-agent laten stoppen met de taak die het probeert uit te voeren of vragen om de taak opnieuw te starten", zegt hij tegen Business Insider.

De crux lijkt hem vooralsnog te zitten in het continue blijven meten van de output van AI-agents. Alleen hiermee valt te bepalen of de inzet van deze nieuwe technologie verantwoordelijk gedaan kan worden. McKinsey vergelijkt guardrails met de vangrail op de weg, die uiteindleijk niet het risico op letsel en dodelijke ongelukken wegneemt.

Voor de beste resultaten kunnen bedrijven AI guardrails het beste combineren met andere procedures en software, voor bijvoorbeeld voor monitoring, compliance, testen en evaluatie.

LEES OOK: Zo kan AI helpen bij zelfevaluaties waar de meeste werknemers een enorme hekel aan hebben